2025. gada 23. septembrisLatviešu

Uzziniet, kā izstrādāt un veidot jaudīgas OLAP sistēmas un datu noliktavas, izmantojot Python. Šis ceļvedis aptver visu, sākot no datu modelēšanas un ETL līdz piemērotāko rīku izvēlei, piemēram, Pandas, Dask un DuckDB.

Python datu noliktava: visaptverošs OLAP sistēmu projektēšanas ceļvedis

Mūsdienu datu vadītajā pasaulē spēja ātri analizēt milzīgu informācijas apjomu nav tikai konkurences priekšrocība; tā ir nepieciešamība. Uzņēmumi visā pasaulē paļaujas uz spēcīgu analītiku, lai izprastu tirgus tendences, optimizētu darbības un pieņemtu stratēģiskus lēmumus. Šīs analītiskās spējas pamatā ir divi pamata jēdzieni: Datu noliktava (DWH) un Tiešās analītiskās apstrādes (OLAP) sistēmas.

Tradicionāli šo sistēmu izveidei bija nepieciešama specializēta, bieži vien patentēta un dārga programmatūra. Tomēr atvērtā pirmkoda tehnoloģiju pieaugums ir demokratizējis datu inženieriju. Šo virzību vada Python, daudzpusīga un jaudīga valoda ar bagātīgu ekosistēmu, kas padara to par izcilu izvēli galveno datu risinājumu veidošanai. Šis ceļvedis sniedz visaptverošu pārskatu par datu noliktavu un OLAP sistēmu projektēšanu un ieviešanu, izmantojot Python krātuvi, kas pielāgota globālai datu inženieru, arhitektu un izstrādātāju auditorijai.

1. daļa: Business Intelligence stūrakmeņi - DWH un OLAP

Pirms iedziļināties Python kodā, ir ļoti svarīgi saprast arhitektūras principus. Izplatīta kļūda ir mēģināt veikt analīzi tieši operatīvajās datubāzēs, kas var radīt zemu veiktspēju un neprecīzus ieskatus. Šī ir problēma, ko datu noliktavas un OLAP tika izstrādātas, lai atrisinātu.

Kas ir Datu noliktava (DWH)?

Datu noliktava ir centralizēts krātuve, kas glabā integrētus datus no viena vai vairākiem atšķirīgiem avotiem. Tās galvenais mērķis ir atbalstīt Business Intelligence (BI) darbības, īpaši analītiku un pārskatu sagatavošanu. Domājiet par to kā par vienoto patiesības avotu organizācijas vēsturiskajiem datiem.

Tā ir stingrā pretstatā Tiešās transakciju apstrādes (OLTP) datubāzei, kas nodrošina ikdienas lietojumprogrammu darbību (piemēram, e-komercijas kases sistēmu vai bankas transakciju reģistru). Šeit ir ātra salīdzinājums:

Darba slodze: OLTP sistēmas apstrādā lielu skaitu mazu, ātru transakciju (lasīšanas, ievietošanas, atjaunināšanas). DWH ir optimizētas mazākam skaitam sarežģītu, ilgstošu vaicājumu, kas skenē miljoniem ierakstu (daudz lasīšanas).
Datu struktūra: OLTP datubāzes ir augsti normalizētas, lai nodrošinātu datu integritāti un izvairītos no redundances. DWH bieži vien tiek denormalizētas, lai vienkāršotu un paātrinātu analītiskos vaicājumus.
Mērķis: OLTP ir biznesa darbības nodrošināšanai. DWH ir biznesa analīzei.

Labi izstrādātu DWH raksturo četras galvenās īpašības, ko bieži piedēvē pionierim Bilam Inmonam:

Tēmai orientēts: Dati tiek organizēti ap galvenajām biznesa tēmām, piemēram, 'Klientu', 'Produktu' vai 'Pārdošanu', nevis lietojumprogrammu procesiem.
Integrēts: Dati tiek savākti no dažādiem avotiem un integrēti konsekventā formātā. Piemēram, 'USA', 'United States' un 'U.S.' var tikt standartizēti uz vienu 'United States' ierakstu.
Laikam pakļauts: noliktavā esošie dati atspoguļo informāciju ilgu laika periodu (piemēram, 5-10 gadus), kas ļauj veikt vēsturiskas analīzes un tendenču identificēšanu.
Neizturīgs: Kad dati ir ielādēti noliktavā, tie reti vai nekad netiek atjaunināti vai dzēsti. Tas kļūst par pastāvīgu vēsturisko notikumu ierakstu.

Kas ir OLAP (Tiešās analītiskās apstrādes)?

Ja DWH ir vēsturisko datu bibliotēka, tad OLAP ir jaudīgā meklētājprogramma un analīzes rīks, kas ļauj to izpētīt. OLAP ir programmatūras tehnoloģiju kategorija, kas ļauj lietotājiem ātri analizēt informāciju, kas ir apkopota daudzdimensiju skatos, kas pazīstami kā OLAP kubi.

OLAP kubs ir OLAP konceptuālā sirds. Tā ne vienmēr ir fiziska datu struktūra, bet gan veids, kā modelēt un vizualizēt datus. Kubs sastāv no:

Mērvienības: Šie ir kvantitatīvi, skaitliski datu punkti, kurus vēlaties analizēt, piemēram, 'Ieņēmumi', 'Pārdotais daudzums' vai 'Peļņa'.
Dimensijas: Šie ir kategoriskie atribūti, kas apraksta mērvienības, sniedzot kontekstu. Kopīgas dimensijas ietver 'Laiks' (gads, ceturksnis, mēnesis), 'Ģeogrāfija' (valsts, reģions, pilsēta) un 'Produkts' (kategorija, zīmols, SKU).

Iedomājieties pārdošanas datu kubu. Jūs varētu aplūkot kopējos ieņēmumus (mērvienība) dažādās dimensijās. Izmantojot OLAP, jūs varat veikt jaudīgas darbības ar šo kubu ar neticamu ātrumu:

Slice: Kubu dimensiju skaita samazināšana, izvēloties vienu vērtību vienai dimensijai. Piemērs: Pārdošanas datu aplūkošana tikai '2023. gada 4. ceturksnim'.
Dice: Apakš kuba atlase, norādot vērtību diapazonu vairākām dimensijām. Piemērs: Pārdošanas aplūkošana 'Elektronikai' un 'Apģērbam' (Produkta dimensija) 'Eiropā' un 'Āzijā' (Ģeogrāfijas dimensija).
Drill-Down / Drill-Up: Navigācija pa detalizācijas līmeņiem dimensijas ietvaros. Drill-down pāriet no augstāka līmeņa kopsavilkumiem uz zemāka līmeņa detaļām (piemēram, no 'Gada' uz 'Ceturksni' uz 'Mēnesi'). Drill-up (vai roll-up) ir pretēji.
Pivot: Kubu asiņu pagriešana, lai iegūtu jaunu datu skatījumu. Piemērs: 'Produkta' un 'Ģeogrāfijas' asiņu apmaiņa, lai redzētu, kuri reģioni pērk kurus produktus, nevis kuri produkti tiek pārdoti kuros reģionos.

OLAP sistēmu tipi

Ir trīs galvenie OLAP sistēmu arhitektūras modeļi:

MOLAP (Multidimensional OLAP): Šis ir "klasiskais" kuba modelis. Dati tiek izgūti no DWH un iepriekš apkopoti patentētā, daudzdimensiju datubāzē. Priekšrocības: Ārkārtīgi ātrs vaicājumu veiktspēja, jo visas atbildes ir iepriekš aprēķinātas. Trūkumi: Var radīt "datu eksploziju", jo iepriekš apkopoto šūnu skaits var kļūt milzīgs, un tas var būt mazāk elastīgs, ja jums ir jāuzdod jautājums, kas nebija paredzēts.
ROLAP (Relational OLAP): Šis modelis saglabā datus attiecību datubāzē (parasti pašā DWH) un izmanto sarežģītu metadatu slāni, lai OLAP vaicājumus pārvērstu par standarta SQL. Priekšrocības: Augsti mērogojams, jo tas izmanto moderno attiecību datubāzu jaudu un var vaicāt detalizētākus, reāllaika datus. Trūkumi: Vaicājumu veiktspēja var būt lēnāka nekā MOLAP, jo apkopojumi tiek veikti tieši.
HOLAP (Hybrid OLAP): Šī pieeja cenšas apvienot labāko no abām pasaulēm. Tā uzglabā augsta līmeņa apkopotus datus MOLAP stila kubā ātrumam un glabā detalizētus datus ROLAP attiecību datubāzē detalizētai analīzei.

Mūsdienu datu krāvām, kas veidotas ar Python, robežas ir izplūdušas. Ar neticami ātriem kolonnu datubāzu parādīšanos ROLAP modelis ir kļuvis dominējošs un ļoti efektīvs, bieži vien nodrošinot veiktspēju, kas konkurē ar tradicionālajām MOLAP sistēmām bez stingrības.

2. daļa: Python ekosistēma datu noliktavai

Kāpēc izvēlēties Python uzdevumam, ko tradicionāli dominē uzņēmumu BI platformas? Atbilde slēpjas tās elastīgumā, jaudīgajā ekosistēmā un spējā apvienot visu datu dzīves ciklu.

Kāpēc Python?

Apvienota valoda: Jūs varat izmantot Python datu izguvei (ETL), transformācijai, ielādei, orķestrēšanai, analīzei, mašīnmācībai un API izstrādei. Tas samazina sarežģītību un nepieciešamību pēc konteksta pārslēgšanas starp dažādām valodām un rīkiem.
Plaša bibliotēku ekosistēma: Python ir nobriedušas, kaujas pārbaudītas bibliotēkas katram procesa posmam, sākot no datu manipulācijas (Pandas, Dask) līdz datubāzes mijiedarbībai (SQLAlchemy) un darba plūsmas pārvaldībai (Airflow, Prefect).
Piegādātājam neitrāls: Python ir atvērtā pirmkoda un savieno visu. Neatkarīgi no tā, vai jūsu dati atrodas PostgreSQL datubāzē, Snowflake noliktavā, S3 datu ezerā vai Google Sheet, ir pieejama Python bibliotēka, lai tos piekļūtu.
Mērogojamība: Python risinājumi var mērogot no vienkārša skripta, kas darbojas klēpjdatorā, līdz izplatītai sistēmai, kas apstrādā petabaitus datu mākoņu klasterī, izmantojot tādus rīkus kā Dask vai Spark (caur PySpark).

Galvenās Python bibliotēkas datu noliktavas krāvai

Tipisks Python balstīts datu noliktavas risinājums nav viens produkts, bet gan kurēta spēcīgu bibliotēku kolekcija. Šeit ir nepieciešamības:

ETL/ELT (Izgūt, Transformēt, Ielādēt)

Pandas: De facto standarts datu manipulācijai atmiņā Python valodā. Ideāli piemērots nelielu un vidēju datu kopu (līdz dažiem gigabaitiem) apstrādei. Tā DataFrame objekts ir intuitīvs un jaudīgs datu tīrīšanai, transformēšanai un analīzei.
Dask: Paralēlās skaitļošanas bibliotēka, kas mērogo jūsu Python analītiku. Dask nodrošina paralēlu DataFrame objektu, kas atdarina Pandas API, bet var darboties ar datu kopām, kas ir lielākas par atmiņu, sadalot tās gabalos un apstrādājot paralēli vairākiem kodoliem vai mašīnām.
SQLAlchemy: Galvenais SQL rīku komplekts un objektu-attiecību kartētājs (ORM) Python valodai. Tas nodrošina konsekventu, augsta līmeņa API savienošanai ar gandrīz jebkuru SQL datubāzi, sākot no SQLite līdz uzņēmuma līmeņa noliktavām, piemēram, BigQuery vai Redshift.
Darba plūsmas orķestrētāji (Airflow, Prefect, Dagster): Datu noliktava netiek veidota uz viena skripta. Tā ir virkne atkarīgu uzdevumu (izgūt no A, transformēt B, ielādēt uz C, pārbaudīt D). Orķestrētāji ļauj definēt šīs darba plūsmas kā virzītos akikliskos grafus (DAG), plānojot, uzraugot un atkārtoti mēģinot tos ar izturību.

Datu glabāšanai un apstrādei

Mākoņu DWH savienotāji: Bibliotēkas, piemēram, snowflake-connector-python, google-cloud-bigquery un psycopg2 (Redshift un PostgreSQL), nodrošina netraucētu mijiedarbību ar galvenajām mākoņu datu noliktavām.
PyArrow: Būtiski svarīga bibliotēka, kas strādā ar kolonnu datu formātiem. Tā nodrošina standartizētu atmiņā esošo formātu un nodrošina ātru datu pārsūtīšanu starp sistēmām. Tā ir efektīvas mijiedarbības ar formātiem, piemēram, Parquet, dzinējspēks.
Modernās datu ezera bibliotēkas: Uzlabotiem iestatījumiem bibliotēkas, piemēram, deltalake, py-iceberg un - Spark lietotājiem - PySpark's vietējais atbalsts šiem formātiem ļauj Python veidot uzticamus, transakcionālus datu ezerus, kas kalpo par noliktavas pamatu.

3. daļa: OLAP sistēmas projektēšana ar Python

Tagad pāriesim no teorijas uz praksi. Šeit ir soli pa solim ceļvedis jūsu analītiskās sistēmas projektēšanai.

1. solis: Datu modelēšana analīzei

Jebkuras labas OLAP sistēmas pamats ir tās datu modelis. Mērķis ir strukturēt datus ātrai, intuitīvai vaicāšanai. Visizplatītākie un efektīvākie modeļi ir zvaigžņu shēma un tās variants, sniega pārslietas shēma.

Zvaigžņu shēma pret sniega pārslietas shēmu

Zvaigžņu shēma ir visplašāk izmantotā struktūra datu noliktavām. Tā sastāv no:

Centrālā Faktu tabula: Satur mērvienības (ciparus, kurus vēlaties analizēt) un ārējos atslēgus uz dimensiju tabulām.
Vairākas Dimensiju tabulas: Katra dimensiju tabula ir savienota ar faktu tabulu ar vienu atslēgu un satur aprakstošos atribūtus. Šīs tabulas ir augsti denormalizētas vienkāršībai un ātrumam.

Piemērs: `FactSales` tabula ar kolonnām, piemēram, `DateKey`, `ProductKey`, `StoreKey`, `QuantitySold` un `TotalRevenue`. Tā būtu apņemta ar `DimDate`, `DimProduct` un `DimStore` tabulām.

Sniega pārslietas shēma ir zvaigžņu shēmas paplašinājums, kurā dimensiju tabulas tiek normalizētas vairākās saistītās tabulās. Piemēram, `DimProduct` tabula varētu tikt sadalīta `DimProduct`, `DimBrand` un `DimCategory` tabulās.

Ieteikums: Sāciet ar Zvaigžņu shēmu. Vaicājumi ir vienkāršāki (mazāk savienojumu), un modernās kolonnu datubāzes ir tik efektīvas plašu, denormalizētu tabulu apstrādē, ka sniega pārslietu shēmu glabāšanas ieguvumi bieži vien ir niecīgi salīdzinājumā ar papildu savienojumu veiktspējas izmaksām.

2. solis: ETL/ELT cauruļvada izveide Python valodā

ETL process ir mugurkauls, kas nodrošina jūsu datu noliktavu. Tas ietver datu izgūšanu no avota sistēmām, to pārveidošanu tīrā un konsekventā formātā un ielādi jūsu analītiskajā modelī.

Ilustrēsim to ar vienkāršu Python skriptu, izmantojot Pandas. Iedomāsimies, ka mums ir avota CSV fails ar neapstrādātiem pasūtījumiem.

# Vienkāršots ETL piemērs, izmantojot Python un Pandas

import pandas as pd

# --- IZGUVE --- 
print("Izgūst neapstrādātus pasūtījumu datus...")
source_df = pd.read_csv('raw_orders.csv')

# --- TRANSFORMAĀCIJA ---
print("Transformē datu...")

# 1. Tīri dati
source_df['order_date'] = pd.to_datetime(source_df['order_date'])
source_df['product_price'] = pd.to_numeric(source_df['product_price'], errors='coerce')
source_df.dropna(inplace=True)

# 2. Bagātiniet datus - Izveidojiet atsevišķu datuma dimensiju
dim_date = pd.DataFrame({
    'DateKey': source_df['order_date'].dt.strftime('%Y%m%d').astype(int),
    'Date': source_df['order_date'].dt.date,
    'Year': source_df['order_date'].dt.year,
    'Quarter': source_df['order_date'].dt.quarter,
    'Month': source_df['order_date'].dt.month,
    'DayOfWeek': source_df['order_date'].dt.day_name()
}).drop_duplicates().reset_index(drop=True)

# 3. Izveidojiet produktu dimensiju
dim_product = source_df[['product_id', 'product_name', 'category']].copy()
dim_product.rename(columns={'product_id': 'ProductKey'}, inplace=True)
dim_product.drop_duplicates(inplace=True).reset_index(drop=True)

# 4. Izveidojiet faktu tabulu
fact_sales = source_df.merge(dim_date, left_on=source_df['order_date'].dt.date, right_on='Date')
                      .merge(dim_product, left_on='product_id', right_on='ProductKey')

fact_sales = fact_sales[['DateKey', 'ProductKey', 'order_id', 'quantity', 'product_price']]
fact_sales['TotalRevenue'] = fact_sales['quantity'] * fact_sales['product_price']
fact_sales.rename(columns={'order_id': 'OrderCount'}, inplace=True)

# Agregēt līdz vēlamajam graudam
fact_sales = fact_sales.groupby(['DateKey', 'ProductKey']).agg(
    TotalRevenue=('TotalRevenue', 'sum'),
    TotalQuantity=('quantity', 'sum')
).reset_index()

# --- IELĀDE ---
print("Ielādē datus mērķa krātuvē...")
# Šajā piemērā saglabāsim Parquet failos, ļoti efektīvā kolonnu formātā
dim_date.to_parquet('warehouse/dim_date.parquet')
dim_product.to_parquet('warehouse/dim_product.parquet')
fact_sales.to_parquet('warehouse/fact_sales.parquet')

print("ETL process pabeigts!")

Šis vienkāršais skripts demonstrē galveno loģiku. Reālā pasaulē jūs ietītu šo loģiku funkcijās un pārvaldītu tās izpildi ar orķestrētāju, piemēram, Airflow.

3. solis: OLAP dzinēja izvēle un ieviešana

Ar jūsu datu modelēšanu un ielādi jums ir nepieciešams dzinējs OLAP operāciju veikšanai. Python pasaulē jums ir vairākas jaudīgas iespējas, kas galvenokārt seko ROLAP pieejai.

A pieeja: vieglais jaudīgais instruments - DuckDB

DuckDB ir process analītiska datubāze, kas ir neticami ātra un viegli lietojama ar Python. Tā var tieši vaicāt Pandas DataFrame vai Parquet failus, izmantojot SQL. Tā ir ideāla izvēle mazām un vidēja mēroga OLAP sistēmām, prototipiem un vietējai izstrādei.

Tā darbojas kā augstas veiktspējas ROLAP dzinējs. Jūs rakstāt standarta SQL, un DuckDB to izpilda ar ārkārtīgu ātrumu pār jūsu datu failiem.

import duckdb

# Savienojiet ar atmiņas datubāzi vai failu
con = duckdb.connect(database=':memory:', read_only=False)

# Tieši vaicājiet iepriekš izveidotos Parquet failus
# DuckDB automātiski saprot shēmu
result = con.execute("""
SELECT
    p.category,
    d.Year,
    SUM(f.TotalRevenue) AS AnnualRevenue
FROM 'warehouse/fact_sales.parquet' AS f
JOIN 'warehouse/dim_product.parquet' AS p ON f.ProductKey = p.ProductKey
JOIN 'warehouse/dim_date.parquet' AS d ON f.DateKey = d.DateKey
WHERE p.category = 'Electronics'
GROUP BY p.category, d.Year
ORDER BY d.Year;
""").fetchdf() # fetchdf() atgriež Pandas DataFrame

print(result)

B pieeja: mākoņu mēroga titāni - Snowflake, BigQuery, Redshift

Lielapjoma uzņēmuma sistēmām mākoņu datu noliktava ir standarta izvēle. Python nemanāmi integrējas ar šīm platformām. Jūsu ETL process ielādētu datus mākoņu DWH, un jūsu Python lietojumprogramma (piemēram, BI informācijas panelis vai Jupyter piezīmju grāmatas) to vaicātu.

Loģika paliek tāda pati kā ar DuckDB, bet savienojums un mērogs ir atšķirīgi.

import snowflake.connector

# Piemērs, kā savienoties ar Snowflake un izpildīt vaicājumu
conn = snowflake.connector.connect(
    user='your_user',
    password='your_password',
    account='your_account_identifier'
)

cursor = conn.cursor()

try:
    cursor.execute("USE WAREHOUSE MY_WH;")
    cursor.execute("USE DATABASE MY_DB;")
    cursor.execute("""
        SELECT category, YEAR(date), SUM(total_revenue)
        FROM fact_sales 
        JOIN dim_product ON ...
        JOIN dim_date ON ...
        GROUP BY 1, 2;
    """)
    # Iegūstiet rezultātus pēc vajadzības
    for row in cursor:
        print(row)
finally:
    cursor.close()
    conn.close()

C pieeja: reāllaika speciālisti - Apache Druid vai ClickHouse

Lietošanas gadījumiem, kas prasa sub-sekundes vaicājumu latentumu uz masīvām, plūstošām datu kopām (piemēram, reāllaika lietotāju analītika), specializētas datubāzes, piemēram, Druid vai ClickHouse, ir lieliskas izvēles. Tās ir kolonnu datubāzes, kas paredzētas OLAP darba slodzēm. Python tiek izmantots, lai plūstu datus tajās un vaicātu tos, izmantojot attiecīgās klientu bibliotēkas vai HTTP API.

4. daļa: praktisks piemērs - Mini OLAP sistēmas veidošana

Apvienosim šos jēdzienus mini projektā: interaktīvs pārdošanas informācijas panelis. Tas demonstrē pilnīgu, lai gan vienkāršotu, Python balstītu OLAP sistēmu.

Mūsu krava:

ETL: Python un Pandas
Datu glabāšana: Parquet faili
OLAP dzinējs: DuckDB
Informācijas panelis: Streamlit (atvērtā pirmkoda Python bibliotēka skaistu, interaktīvu tīmekļa lietotņu izveidei datu zinātnei)

Vispirms palaidiet 3. daļas ETL skriptu, lai izveidotu Parquet failus `warehouse/` direktorijā.

Pēc tam izveidojiet informācijas paneļa lietojumprogrammas failu, `app.py`:

# app.py - Vienkāršots interaktīvs pārdošanas informācijas panelis

import streamlit as st
import duckdb
import pandas as pd
import plotly.express as px

# --- Lapas konfigurācija ---
st.set_page_config(layout="wide", page_title="Globālais pārdošanas informācijas panelis")
st.title("Interaktīvs pārdošanas OLAP informācijas panelis")

# --- Savienojums ar DuckDB ---
# Tas tieši vaicās mūsu Parquet failus
con = duckdb.connect(database=':memory:', read_only=True)

# --- Ielādēt dimensiju datus filtriem ---
@st.cache_data
def load_dimensions():
    products = con.execute("SELECT DISTINCT category FROM 'warehouse/dim_product.parquet'").fetchdf()
    years = con.execute("SELECT DISTINCT Year FROM 'warehouse/dim_date.parquet' ORDER BY Year").fetchdf()
    return products['category'].tolist(), years['Year'].tolist()

categories, years = load_dimensions()

# --- Sānu josla filtriem (OLAP griešana un sadalīšana!) ---
st.sidebar.header("OLAP filtri")

selected_categories = st.sidebar.multiselect(
    'Izvēlieties produktu kategorijas',
    options=categories,
    default=categories
)

selected_year = st.sidebar.selectbox(
    'Izvēlieties gadu',
    options=years,
    index=len(years)-1 # Noklusējums uz jaunāko gadu
)

# --- Veidojiet OLAP vaicājumu dinamiskiski ---
if not selected_categories:
    st.warning("Lūdzu, izvēlieties vismaz vienu kategoriju.")
    st.stop()

query = f"""
SELECT
    d.Month,
    d.MonthName, -- Pieņemot, ka MonthName pastāv DimDate
    p.category,
    SUM(f.TotalRevenue) AS Revenue
FROM 'warehouse/fact_sales.parquet' AS f
JOIN 'warehouse/dim_product.parquet' AS p ON f.ProductKey = p.ProductKey
JOIN 'warehouse/dim_date.parquet' AS d ON f.DateKey = d.DateKey
WHERE d.Year = {selected_year}
  AND p.category IN ({str(selected_categories)[1:-1]})
GROUP BY d.Month, d.MonthName, p.category
ORDER BY d.Month;
"""

# --- Izpildiet vaicājumu un parādiet rezultātus ---
@st.cache_data
def run_query(_query):
    return con.execute(_query).fetchdf()

results_df = run_query(query)

if results_df.empty:
    st.info(f"Nav atrasti dati izvēlētajiem filtriem {selected_year} gadā.")
else:
    # --- Galvenie informācijas paneļa vizuālie elementi ---
    col1, col2 = st.columns(2)

    with col1:
        st.subheader(f"Mēneša ieņēmumi par {selected_year}")
        fig = px.line(
            results_df,
            x='MonthName',
            y='Revenue',
            color='category',
            title='Mēneša ieņēmumi pa kategorijām'
        )
        st.plotly_chart(fig, use_container_width=True)

    with col2:
        st.subheader("Ieņēmumi pa kategorijām")
        category_summary = results_df.groupby('category')['Revenue'].sum().reset_index()
        fig_pie = px.pie(
            category_summary,
            names='category',
            values='Revenue',
            title='Kopējā ieņēmumu daļa pa kategorijām'
        )
        st.plotly_chart(fig_pie, use_container_width=True)

    st.subheader("Detalizēti dati")
    st.dataframe(results_df)

Lai to palaistu, saglabājiet kodu kā `app.py` un izpildiet `streamlit run app.py` savā terminālī. Tas atvērs tīmekļa pārlūkprogrammu ar jūsu interaktīvo informācijas paneli. Sānu joslas filtri ļauj lietotājiem veikt OLAP 'griešanas' un 'sadalīšanas' operācijas, un informācijas panelis atjaunojas reāllaikā, atkārtoti vaicājot DuckDB.

5. daļa: Papildu tēmas un labākā prakse

Pārejot no mini projekta uz ražošanas sistēmu, apsveriet šīs papildu tēmas.

Mērogojamība un veiktspēja

Izmantojiet Dask lieliem ETL: Ja jūsu avota dati pārsniedz jūsu mašīnas RAM, nomainiet Pandas ar Dask savos ETL skriptos. API ir ļoti līdzīgs, bet Dask apstrādās ārpus atmiņas un paralēlo apstrādi.
Kolonnu glabāšana ir galvenā: Vienmēr glabājiet savu noliktavas datus kolonnu formātā, piemēram, Apache Parquet vai ORC. Tas dramatiski paātrina analītiskos vaicājumus, kuriem parasti ir nepieciešams nolasīt tikai dažas kolonnas no plašas tabulas.
Particionēšana: Uzglabājot datus datu ezerā (piemēram, S3 vai vietējā failu sistēmā), sadaliet datus mapēs, pamatojoties uz bieži filtrētu dimensiju, piemēram, datumu. Piemēram: `warehouse/fact_sales/year=2023/month=12/`. Tas ļauj vaicājumu dzinējiem izlaist nevajadzīgu datu lasīšanu, process, kas pazīstams kā "partīciju apgriešana".

Semantiskais slānis

Sistēmai augot, jūs atradīsiet, ka biznesa loģika (piemēram, "Aktīvā lietotāja" vai "Bruto peļņas") definīcija tiek atkārtota vairākos vaicājumos un informācijas paneļos. Semantiskais slānis to atrisina, nodrošinot centralizētu, konsekventu jūsu biznesa metrikas un dimensiju definīciju. Tādi rīki kā dbt (Data Build Tool) ir izcili šim nolūkam. Lai gan tas nav pats par sevi Python rīks, dbt lieliski integrējas Python orķestrētā darba plūsmā. Jūs izmantojat dbt, lai modelētu savu zvaigžņu shēmu un definētu metrikas, un pēc tam Python var izmantot, lai orķestrētu dbt skrējienus un veiktu papildu analīzi uz iegūtajām tīrajām tabulām.

Datu pārvaldība un kvalitāte

Noliktava ir tikpat laba kā tajā esošie dati. Integrējiet datu kvalitātes pārbaudes tieši savos Python ETL cauruļvados. Bibliotēkas, piemēram, Great Expectations, ļauj definēt "izredzes" par jūsu datiem (piemēram, `customer_id` nekad nedrīkst būt null, `revenue` jābūt starp 0 un 1 000 000). Jūsu ETL uzdevums pēc tam var neizdoties vai brīdināt jūs, ja ienākošie dati pārkāpj šos līgumus, novēršot sliktu datu sabojāt jūsu noliktavu.

Noslēgums: Koda pirmās pieejas spēks

Python ir fundamentāli mainījis datu noliktavu un Business Intelligence ainavu. Tas nodrošina elastīgu, jaudīgu un piegādātājam neitrālu rīku komplektu, lai no nulles veidotu sarežģītas analītiskās sistēmas. Apvienojot labākās klases bibliotēkas, piemēram, Pandas, Dask, SQLAlchemy un DuckDB, jūs varat izveidot pilnīgu OLAP sistēmu, kas ir gan mērogrojama, gan uzturama.

Ceļojums sākas ar stingru izpratni par datu modelēšanas principiem, piemēram, zvaigžņu shēmu. No turienes jūs varat veidot izturīgus ETL cauruļvadus, lai veidotu savus datus, izvēlēties pareizo vaicājumu dzinēju savam mērogam un pat veidot interaktīvas analītiskās lietojumprogrammas. Šī koda pirmā pieeja, kas bieži vien ir "Modernās datu krauto" pamatprincips, nodrošina analītikas jaudu tieši izstrādātāju un datu komandu rokās, ļaujot tām veidot sistēmas, kas ir perfekti pielāgotas viņu organizācijas vajadzībām.